
#!/bin/bash

# 检查必要工具是否安装
# if ! command -v mineru &> /dev/null; then
#     echo "错误：未安装MinerU工具"
#     exit 1
# fi

if ! command -v pandoc &> /dev/null; then
    echo "错误：未安装pandoc工具"
    exit 1
fi

# 复制A文件夹所有文件到pdfs
cp A/*.pdf pdfs/

# 处理每个PDF文件
for pdf_file in pdfs/*.pdf; do
    if [ -f "$pdf_file" ]; then
        # 获取不带扩展名的文件名
        base_name=$(basename "$pdf_file" .pdf)
        
        echo "正在处理: $base_name.pdf"
        
        # 调用MinerU处理PDF
        #mineru -p "$pdf_file" -o pdfs/
        
        # 检查生成的md文件
        md_file="pdfs/$base_name/$base_name.md"
        if [ -f "$md_file" ]; then
            # 转换为docx
            pandoc "$md_file" -o "pdfs/$base_name/$base_name.docx"
            
            # Python格式处理
            python word.py "pdfs/$base_name/$base_name.docx"
            
            # 复制到A文件夹
            cp "pdfs/$base_name/$base_name.docx" A/
        else
            echo "警告：未生成对应的Markdown文件: $md_file"
        fi
    fi
done

# 清理临时文件
rm -rf pdfs/*
echo "处理完成，结果已保存到A文件夹"
